流量数据长期遭受缺失和腐败的困扰,从而导致随后的智能运输系统(ITS)应用程序的准确性和效用降低。注意到流量数据的固有低级属性,大量研究将缺少的流量数据恢复为低级张量完成(LRTC)问题。由于LRTC中的秩最小化的非跨性别性和离散性,现有方法要么用凸面替代等级代替等级替代等级函数,要么以涉及许多参数的非convex替代物,或近似等级。在这项研究中,我们提出了一个用于交通数据恢复的无参数的非凸张量完成模型(TC-PFNC),其中设计了基于日志的松弛项以近似张量代数级别。此外,以前的研究通常认为观察结果是可靠的,没有任何异常值。因此,我们通过对潜在的流量数据异常值进行建模,将TC-PFNC扩展到了强大的版本(RTC-PFNC),该数据可以从部分和损坏的观测值中恢复缺失的值并在观测中删除异常。基于交替的方向乘数法(ADMM)详细阐述了TC-PFNC和RTC-PFNC的数值解。在四个现实世界流量数据集上进行的广泛实验结果表明,所提出的方法在缺失和损坏的数据恢复中都优于其他最先进的方法。本文使用的代码可在以下网址获得:https://github.com/younghe49/t-ITSPFNC。
translated by 谷歌翻译
在3D动作识别中,存在骨骼模式之间的丰富互补信息。然而,如何建模和利用这些信息仍然是一个充满挑战的3D动作表示学习的问题。在这项工作中,我们将交叉模式相互作用作为双向知识蒸馏问题。不同于经典的蒸馏解决方案,这些解决方案将固定和预训练的教师的知识转移到学生中,在这项工作中,知识在模式之间不断更新和双向蒸馏。为此,我们提出了一个新的跨模式相互蒸馏(CMD)框架,并采用以下设计。一方面,引入了相邻的相似性分布来对每种模式中学习的知识进行建模,其中关系信息自然适合对比框架。另一方面,不对称的配置用于教师和学生来稳定蒸馏过程并在模式之间传递高信心信息。通过派生,我们发现以前作品中的跨模式阳性采矿可以被视为我们CMD的退化版本。我们对NTU RGB+D 60,NTU RGB+D 120和PKU-MMD II数据集执行了广泛的实验。我们的方法的表现优于现有的自我监督方法,并设置了一系列新记录。该代码可在以下网址找到:https://github.com/maoyunyao/cmd
translated by 谷歌翻译
对于许多应用程序,包括自动驾驶,机器人抓握和增强现实,单眼3D对象检测是一项基本但非常重要的任务。现有的领先方法倾向于首先估算输入图像的深度,并基于点云检测3D对象。该例程遭受了深度估计和对象检测之间固有的差距。此外,预测误差积累也会影响性能。在本文中,提出了一种名为MonopCN的新方法。引入单频道的洞察力是,我们建议在训练期间模拟基于点云的探测器的特征学习行为。因此,在推理期间,学习的特征和预测将与基于点云的检测器相似。为了实现这一目标,我们建议一个场景级仿真模块,一个ROI级别的仿真模块和一个响应级仿真模块,这些模块逐渐用于检测器的完整特征学习和预测管道。我们将我们的方法应用于著名的M3D-RPN检测器和CADDN检测器,并在Kitti和Waymo Open数据集上进行了广泛的实验。结果表明,我们的方法始终提高不同边缘的不同单眼探测器的性能,而无需更改网络体系结构。我们的方法最终达到了最先进的性能。
translated by 谷歌翻译
基于点云的大规模地位识别对于许多应用程序,如同时本地化和映射(SLAM)等许多应用是基础的。虽然已经提出了许多模型并通过学习短程局部特征而实现了良好的性能,但往往忽略了远程语境特性。此外,模型大小也已成为其广泛应用的瓶颈。为了克服这些挑战,我们提出了一个超级轻型网络模型,被称为SVT-Net,用于大规模识别。具体地,在高效的3D稀疏卷积(SP-CONV)之上,提出了一种基于原子的稀疏体变压器(ASVT)和基于簇的稀疏体变压器(CSVT),以学习短程局部特征和长期 - 此模型中的上下文功能。由ASVT和CSVT组成,SVT-NET可以在基准数据集中实现最先进的,其精度和速度都具有超光模型尺寸(0.9M)。同时,引入了两种简化的SVT-NET版本,也实现了最先进的,进一步降低了模型尺寸至0.8米和0.4米。
translated by 谷歌翻译
Recently, over-height vehicle strike frequently occurs, causing great economic cost and serious safety problems. Hence, an alert system which can accurately discover any possible height limiting devices in advance is necessary to be employed in modern large or medium sized cars, such as touring cars. Detecting and estimating the height limiting devices act as the key point of a successful height limit alert system. Though there are some works research height limit estimation, existing methods are either too computational expensive or not accurate enough. In this paper, we propose a novel stereo-based pipeline named SHLE for height limit estimation. Our SHLE pipeline consists of two stages. In stage 1, a novel devices detection and tracking scheme is introduced, which accurately locate the height limit devices in the left or right image. Then, in stage 2, the depth is temporally measured, extracted and filtered to calculate the height limit device. To benchmark the height limit estimation task, we build a large-scale dataset named "Disparity Height", where stereo images, pre-computed disparities and ground-truth height limit annotations are provided. We conducted extensive experiments on "Disparity Height" and the results show that SHLE achieves an average error below than 10cm though the car is 70m away from the devices. Our method also outperforms all compared baselines and achieves state-of-the-art performance. Code is available at https://github.com/Yang-Kaixing/SHLE.
translated by 谷歌翻译
Objects in a scene are not always related. The execution efficiency of the one-stage scene graph generation approaches are quite high, which infer the effective relation between entity pairs using sparse proposal sets and a few queries. However, they only focus on the relation between subject and object in triplet set subject entity, predicate entity, object entity, ignoring the relation between subject and predicate or predicate and object, and the model lacks self-reasoning ability. In addition, linguistic modality has been neglected in the one-stage method. It is necessary to mine linguistic modality knowledge to improve model reasoning ability. To address the above-mentioned shortcomings, a Self-reasoning Transformer with Visual-linguistic Knowledge (SrTR) is proposed to add flexible self-reasoning ability to the model. An encoder-decoder architecture is adopted in SrTR, and a self-reasoning decoder is developed to complete three inferences of the triplet set, s+o-p, s+p-o and p+o-s. Inspired by the large-scale pre-training image-text foundation models, visual-linguistic prior knowledge is introduced and a visual-linguistic alignment strategy is designed to project visual representations into semantic spaces with prior knowledge to aid relational reasoning. Experiments on the Visual Genome dataset demonstrate the superiority and fast inference ability of the proposed method.
translated by 谷歌翻译
Full-body reconstruction is a fundamental but challenging task. Owing to the lack of annotated data, the performances of existing methods are largely limited. In this paper, we propose a novel method named Full-body Reconstruction from Part Experts~(FuRPE) to tackle this issue. In FuRPE, the network is trained using pseudo labels and features generated from part-experts. An simple yet effective pseudo ground-truth selection scheme is proposed to extract high-quality pseudo labels. In this way, a large-scale of existing human body reconstruction datasets can be leveraged and contribute to the model training. In addition, an exponential moving average training strategy is introduced to train the network in a self-supervised manner, further boosting the performance of the model. Extensive experiments on several widely used datasets demonstrate the effectiveness of our method over the baseline. Our method achieves the state-of-the-art performance. Code will be publicly available for further research.
translated by 谷歌翻译
大规模的地方认可是一项基本但具有挑战性的任务,在自主驾驶和机器人技术中起着越来越重要的作用。现有的方法已经达到了可接受的良好性能,但是,其中大多数都集中精力设计精美的全球描述符学习网络结构。长期以来忽略了特征概括和描述后的特征概括和描述符的重要性。在这项工作中,我们提出了一种名为GIDP的新方法,以学习良好的初始化并引起描述符,以供大规模识别。特别是,在GIDP中分别提出了无监督的动量对比度云预处理模块和基于重新的描述符后增强模块。前者旨在在训练位置识别模型之前对Point Cloud编码网络进行良好的初始化,而后来的目标是通过推理时间重新掌握预测的全局描述符。在室内和室外数据集上进行的广泛实验表明,我们的方法可以使用简单和一般的点云编码主干来实现最先进的性能。
translated by 谷歌翻译
选择第一次到达的Prestack收集时间被称为首次到达时间(FAT)采摘,这是地震数据处理中必不可少的一步,并且主要是手动解决的。随着当前地震数据收集密度的增加,手动采摘效率无法满足实际需求。因此,近几十年来,自动采摘方法已经大大开发出来,尤其是基于深度学习的方法。但是,当前有监督的基于深度学习的方法很少可以避免对标记样品的依赖。此外,由于收集数据是一组与自然图像大不相同的信号,因此当前方法在低信号与噪声比(SNR)的情况下很难解决脂肪拾取问题。在本文中,对于Hard Rock地震收集数据,我们提出了一个多阶段分割拾取网络(MSSPN),该网络解决了跨工作地点的概括问题以及在低SNR的情况下的采摘问题。在MSSPN中,有四个子模型可以模拟手动采摘处理,从而将其假定为从粗糙到细的四个阶段。具有不同质量的七个现场数据集的实验表明,我们的MSSPN的表现优于大幅度的基准。尤其是,在中等和高snrs的情况下,我们的方法可以实现超过90 \%的精确拾取,甚至精细模型也可以使用低SNR实现88 \%精确的数据集。
translated by 谷歌翻译
最近,基于RGBD的类别级别6D对象姿势估计已实现了有希望的性能提高,但是,深度信息的要求禁止更广泛的应用。为了缓解这个问题,本文提出了一种新的方法,名为“对象级别深度重建网络”(旧网)仅将RGB图像作为类别级别6D对象姿势估计的输入。我们建议通过将类别级别的形状在对象级深度和规范的NOC表示中直接从单眼RGB图像中直接预测对象级的深度。引入了两个名为归一化的全局位置提示(NGPH)和形状吸引的脱钩深度重建(SDDR)模块的模块,以学习高保真对象级的深度和精致的形状表示。最后,通过将预测的规范表示与背面预测的对象级深度对齐来解决6D对象姿势。在具有挑战性的Camera25和Real275数据集上进行了广泛的实验,表明我们的模型虽然很简单,但可以实现最先进的性能。
translated by 谷歌翻译